其他
#凯哥读报告#[17]麦肯锡:面向未来驱动创新的数据架构
它们涉及几乎所有数据活动,包括采集,处理,存储,分析和公开。尽管组织可以在不改变其核心技术堆栈的情况下进行一些更改,但是许多组织仍需要仔细地重新架构现有的数据平台和基础架构,包括以前使用的旧技术和较新技术。
1.从本地部署(on-premise)到基于云(data-cloud)的数据平台
云可能是一种全新的数据架构方法的最具颠覆性的驱动力,因为它为公司提供了一种快速扩展AI工具和功能以获取竞争优势的方法。诸如Amazon(通过Amazon Web Services),Google(通过Google Cloud Platform)和Microsoft(通过Microsoft Azure)之类的主要全球云提供商已经彻底改变了各种规模的组织的来源,部署和运行数据基础架构,平台和方式的方式。让数据和智能大规模应用于企业的所有用例。例如,一家公用事业服务公司将基于云的数据平台与容器技术相结合,该技术用微服务(例如搜索账单数据或向帐户添加新属性)来模块化应用程序功能。这使公司能够在几天而不是几个月内向大约100,000个业务客户部署新的自助服务功能,为最终用户提供大量的实时库存和交易数据以进行分析,并通过在云中“缓冲”交易来降低成本而不是在更昂贵的本地旧系统上。 启用概念和组件无服务数据平台(例如Amazon S3和Google BigQuery)使组织可以无限扩展地构建和运行以数据为中心的应用程序,而无需麻烦地安装和配置解决方案或管理工作负载。此类产品可以降低所需的专业知识,将部署时间从数周缩短至几分钟,并且几乎不需要运营开销。 使用Kubernetes的容器化数据解决方案(可通过云提供商以及开放源代码获得,并且可以快速集成和部署)使公司能够解耦和自动化其他计算能力和数据存储系统的部署。此功能对于确保具有更复杂设置的数据平台(例如,将数据从一个应用程序会话保留到另一个应用程序会话所需的数据平台,以及具有复杂备份和恢复要求的数据平台)可以扩展以满足需求特别有用。
2.从批处理到实时数据处理
实时数据消息和流功能的成本已大大降低,为主流使用铺平了道路。这些技术实现了许多新的业务应用:例如,运输公司可以在出租车到达时向客户提供准确到秒的到达预测;保险公司可以分析来自智能设备的实时行为数据以个性化费率;而且制造商可以根据实时传感器数据预测基础设施问题。诸如订阅机制之类的实时流功能使数据消费者(包括数据集市和数据驱动的员工)可以订阅“主题”,以便他们可以不断获取所需的交易。通用数据湖通常充当此类服务的“大脑”,保留所有细粒度的交易。增强概念和组件诸如Apache Kafka之类的消息传递平台提供了完全可扩展,持久且具有容错能力的发布/订阅服务,该服务可以每秒处理和存储数百万条消息以供立即使用或以后使用。与传统的企业消息队列相比,这可以支持实时用例,绕过现有的基于批处理的解决方案,并且占用空间(和成本基础)更轻。 流处理和分析解决方案( 例如Apache Kafka流,Apache Flume,Apache Storm和Apache Spark流)允许对消息进行实时直接分析。该分析可以基于规则,也可以包括高级分析,以从数据中提取事件或信号。通常,分析会集成历史数据以比较模式,这在推荐和预测引擎中尤其重要。 诸如Graphite或Splunk之类的警报平台可以向用户触发业务操作,例如通知销售代表如果他们没有达到其日常销售目标,或者将这些操作集成到可能在企业资源计划(ERP)或客户关系中运行的现有流程中管理(CRM)系统。
3.从预集成的商业解决方案到模块化的同类最佳平台
为了扩展应用程序,公司通常需要远远超出大型解决方案供应商提供的旧数据生态系统的范围。现在,许多公司正在朝着高度模块化的数据架构迈进,该架构使用了同类最佳的,经常使用的开源组件,可以根据需要用新技术替换它们,而不会影响数据架构的其他部分。前面提到的公用事业服务公司正在过渡到这种方法,以快速向数百万客户提供新的,数据繁重的数字服务,并大规模连接基于云的应用程序。例如,它提供了有关客户能源消耗的准确每日视图,并提供了实时分析见解,将个人消费与对等群体进行了比较。该公司建立了一个独立的数据层,其中包括商业数据库和开源组件。数据通过专有的企业服务总线与后端系统同步,托管在容器中的微服务在数据上运行业务逻辑。启用概念和组件数据管道和基于API的接口 通过使数据团队免受不同层的复杂性的影响,缩短了上市时间,并减少了在现有应用程序中引起新问题的机会,从而简化了不同工具与平台之间的集成。这些接口还允许随着需求的变化更容易地更换单个组件。 诸如Amazon Sagemaker和Kubeflow之类的分析工作台可在高度模块化的架构中简化端到端解决方案的构建。这样的工具可以与各种各样的基础数据库和服务连接,并允许高度模块化的设计。
4.从点对点到解耦数据访问
通过API公开数据可以确保对访问查看和修改数据的直接访问受到限制和安全,同时还可以提供对常见数据集的更快,最新的访问。这使得数据可以在团队之间轻松重用,从而加速访问并实现分析团队之间的无缝协作,从而可以更有效地开发AI用例。例如,一家制药公司正在通过API为所有员工建立内部“数据市场”,以简化和标准化对核心数据资产的访问,而不是依赖于专有接口。该公司将在18个月内逐步将其最有价值的现有数据Feed迁移到基于API的结构,并部署API管理平台以向用户展示API。启用概念和组件API管理平台 (通常称为API网关)对于创建和发布以数据为中心的API,实现使用策略,控制访问以及衡量使用情况和性能是必需的。该平台还允许开发人员和用户搜索现有数据接口并重用它们,而不是构建新的数据接口。API网关通常是 嵌入为数据中心内的单独区域,但也可以将其开发为中心外的独立功能。 通常需要一个数据平台来“缓冲”核心系统之外的事务。这样的缓冲区可以由诸如数据湖之类的中央数据平台或在分布式数据网格中提供,分布式数据网格是由为每个业务域的预期数据创建的最佳平台(包括数据湖,数据仓库等)组成的生态系统。使用情况和工作量。例如,一家银行建立了一个柱状数据库,以直接向在线和移动银行应用程序提供客户信息(例如最近的金融交易),并减少大型机上昂贵的工作量。
5.从企业仓库到基于业务域的体系结构
许多数据架构领导者已经从中央企业数据湖转向“域驱动”设计,这些设计可以定制和“适合目的”以缩短新数据产品和服务的上市时间。通过这种方法,尽管数据集可能仍驻留在相同的物理平台上,但每个业务领域(例如,市场营销,销售,制造等)中的“产品所有者”都被要求以易于使用的方式来组织其数据集。既适用于其域内的用户又适用于其他业务域中的下游数据使用者。这种方法需要仔细权衡,以免变得零散和效率低下,但作为回报,它可以减少在湖中构建新数据模型之前花费的时间,通常从几个月缩短到几天,一家欧洲电信提供商使用了基于分布式域的架构,因此销售和运营人员可以将客户,订单和账单数据提供给数据科学家,以用于AI模型或直接通过数字渠道提供给客户。该组织没有建立一个中央数据平台,而是部署了由公司销售和运营团队中的产品所有者管理的逻辑平台。激励产品所有者促进使用数据进行分析,并使用数字渠道以及论坛和黑客马拉松来推动采用。启用概念和组件数据基础架构作为平台 提供了用于存储和管理的通用工具和功能,以加快实施速度并减轻数据生产者构建自己的数据资产平台的负担。 数据虚拟化技术始于诸如客户数据之类的利基领域,如今已在整个企业中用于组织对分布式数据资产的访问和集成。 数据分类工具 可在无需完全访问或准备的情况下提供企业搜索和数据浏览。该目录通常还提供元数据定义和端到端接口,以简化对数据资产的访问。
6.从严格的数据模型到灵活的,可扩展的数据模式
来自软件供应商的预定义数据模型和满足特定业务智能需求的专有数据模型通常以高度标准化的模式构建,这些模式带有刚性数据库表和数据元素,以最大程度地减少冗余。尽管此方法仍然是报告和以法规为中心的用例的标准,但它也要求组织在要合并新的数据元素或数据源时经历漫长的开发周期并拥有丰富的系统知识,因为任何更改都会影响数据完整性。 为了在探索数据或支持高级分析时获得更大的灵活性和强大的竞争优势,公司正在向“架构简化”方法发展,它们使用物理表较少的非规范化数据模型来组织数据以实现最佳性能。这种方法提供了许多好处:灵活的数据探索,存储结构化和非结构化数据的更大灵活性以及降低的复杂性,因为数据领导者不再需要引入其他抽象层,例如高度规范化的表之间的多个“联接”来查询关系数据。 启用概念和组件诸如数据点建模之类的数据仓库2.0技术可以确保数据模型可扩展,以便将来可以在有限的中断范围内添加或删除数据元素。
Graph数据库是NoSQL数据库的一种,近年来受到关注。通常,NoSQL数据库非常适合需要大量可伸缩性和实时功能的数字应用程序,也非常适合服务于AI应用程序的数据层,这归功于它们能够利用非结构化数据。尤其是图数据库,提供了以强大而灵活的方式对数据中的关系进行建模的功能,许多公司正在使用图数据库来构建主数据存储库,以适应不断变化的信息模型。
诸如Azure Synapse Analytics之类的技术服务允许通过将表结构动态应用于文件来查询类似于关系数据库的基于文件的数据。这使用户可以灵活地在访问文件中存储的数据时继续使用通用接口(例如SQL)。
使用JavaScript对象表示法(JSON) 来存储信息,使组织可以更改数据库结构而不必更改业务信息模型。
将测试和学习的心态应用于架构构建,并尝试使用不同的组件和概念。这种敏捷实践已经在应用程序开发中应用了很长时间,并且最近已经转移到数据空间中。例如,领导者可以参与较小的预算,创建最低限度的预算或创建可行的产品,或将现有的开放源代码整理在一起,而不是参与关于最佳设计,产品和供应商的讨论,以找出“完美”的选择,然后再进行冗长的预算批准。创建临时产品的工具,将其发布到生产环境(使用云来加速),以便它们可以在扩展和发展之前展示其价值。 建立数据“部落”,由数据管理人员,数据工程师和数据建模人员组成的团队与端到端的责任制一起构建数据体系结构。这些部落还致力于建立标准的,可重复的数据和特征工程流程,以支持开发高度可建模的数据集。这些敏捷的数据实践可以帮助加快新数据服务的上市时间。 投资DataOps(用于数据的增强的DevOps),这有助于加快新组件在数据体系结构中的设计,开发和部署,以便团队可以根据反馈快速实施和频繁更新解决方案。 创建一种数据文化,使员工渴望在其角色中使用和应用新的数据服务。实现此目标的一个重要工具是确保数据策略与业务目标相关联,并反映在高级管理人员给组织的消息中,这可以帮助加强这项工作对业务团队的重要性。